stata上课笔记 | 您所在的位置:网站首页 › stata describe命令怎么用 › stata上课笔记 |
接上一个笔记生成新变量 生成所有我们需要的变量后,就需要开始对数据进行分析,但是并不是一上来就进行回归分析 还需要对变量之间的关系进行初步的分析再开始回归 数据分布 直方图这个我在之前的文章里有写,这里再简单的写一下 https://blog.csdn.net/Clytie_Lion/article/details/123811416?spm=1001.2014.3001.5502 hist roa_w if $samp & roa_w>-0.2,freq norm其中hist的默认纵坐标是各个值的概率,用freq可以显示具体的数量,而 norm则是在图形中显示正态分布曲线,即下图中的蓝色曲线,可以清晰的看出roa在蓝色线内的左下方是空白的,而在0处集中了大量了数值,这也在一定程度上显示了企业在0临界值进行盈余管理的行为 最简单的描述性统计 **#设置样本条件 global samp miss==0 & ind!="I" **#设置变量 global dep ln_audfee global exp BigFour global ctrl ln_ta lev roa mod tabstat $exp $dep $ctrl if $samp , s(n mean sd min q max) c(s)s()中是我们需要列示的统计量 目前我们的解释变量属于是01变量 那么我们还可以进行分组描述性统计以观察分组的数据特征,作为回归分析的前期初步检验 tabstat $dep $ctrl if $samp ,by($exp) s(n mean sd min q max) c(s) 组间差异检验 ttest组间差异的检验,相比上上一个分组的描述性统计简单对比数字,ttest提供了一个更为专业的检验,检验制定变量在不同组别之间的差异 unequal指的是两个分组样本的方差不相等 同时,ttest的默认置信水平是95%,可以通过level(99)设置不同的置信区间 **#ttest检验组间差异 foreach i in $dep $ctrl{ ttest `i' if $samp, by ($exp) unequal } foreach i in $dep $ctrl{ ttest `i' if $samp, by ($exp) unequal level(99) }结果如下,大部分是只需要看最后一行的p值,可以看出两个样本之间的均值是显著不相等,且为0的样本显著大于为1的样本 更详细的ttest检验可以看连玉君老师的这篇文章 Stata:多个变量组间均值\中位数差异检验 秩和检验实际上就是把所有的数值进行排序获得一个等级排序,前提假设是分组样本在总体分布位置相同,主要适用于当变量不符合正态分布的情况 最后看p值拒绝原假设,即两个样本的分布并不平均 皮尔逊卡方检验当制定变量也是虚拟变量时,可以通过tab中的chi2进行皮尔逊卡方检验 下面的mod是审计意见的代理变量,为01变量,所以可以采用tab 自带的chi2检验 **#对于虚拟变量的皮尔逊检验 tab BigFour mod,row chi2结果显示如下,同样观察最后一行,结果显示p |
CopyRight 2018-2019 实验室设备网 版权所有 |